Tableau de bits indexé (TBI) pour la recherche de séquences fréquentes

نویسندگان

  • Lionel Savary
  • Karine Zeitouni
چکیده

A la différence de la fouille d’articles fréquents, la recherche de sous-séquences fréquentes tient compte de l’apparition multiple et de l’ordre des articles. L’algorithme proposé parcourt la base de données une seule fois. Durant cette passe, il construit un vecteur VS contenant toutes les combinaisons de séquences présentes dans la base. A ce vecteur est associé un tableau de bit TB codant toutes les séquences de la base en correspondance avec les articles codés dans VS. Les bits à 1 indiquent les articles présents dans la séquence et les bits à 0 ceux qui ne le sont pas. Les séquences sont représentées dans chaque ligne du tableau et regroupées par taille dans l’ordre décroissant. Un index associé au tableau permet de pointer directement les séquences de taille choisie. Ce qui évite des comparaisons superflues et améliore les performances. Le tableau NB associé au TB, indique les fréquences associées à chaque séquence. Dans l’exemple de la figure 1, la séquence (M) de taille 1 se trouve à la première ligne dans le TB et a une fréquence de 500. Cette structure est construite dynamiquement au cours de l’unique passe dans la base de données. Un deuxième algorithme TBI2, basé sur un tableau de booléens, offre de meilleures performances mais nécessite plus d’espace mémoire. TBI et TBI2 affichent de meilleures performances que les algorithmes existants tel que Prefixspan [1].

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extraction de Séquences Fréquentes : Des Bases de Données Statiques aux Flots de Données

HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...

متن کامل

TraMineR: une librairie R pour l'analyse de données séquentielles

TraMineR est une librairie pour l'environnement statistique R destinée à la fouille, la description et la visualisation de séquences d'états ou d'événements, et plus généralement de données séquentielles discrètes. La librairie est librement disponible sur le CRAN http://cran.r-project.org. Elle est principalement conçue pour l'analyse de données biographiques longitu-dinales dans le domaine de...

متن کامل

Approches de type n-grammes pour l'analyse de parcours de vie familiaux

Résumé. Cet article1 porte sur l’analyse de parcours de vie représentés sous forme de séquences d’événements. Plus spécifiquement, on examine les possibilités d’exploiter des codages de type n-grammes de ces séquences pour en extraire des connaissances. En fait, compte tenu de la simultanéité de certains événements, une procédure stricte de n-grammes comme on peut par exemple l’appliquer sur de...

متن کامل

Architecture et Outils pour la Recherche d'Evénements dans les Séquences Vidéo

RÉSUMÉ. Le problème abordé ici concerne l’indexation en ligne de données multimédia par la recherche d’extraits pertinents qui peuvent aussi être des réponses à des requêtes spécifiques. Nos travaux se focalisent sur l’analyse de séquences vidéo afin d’y détecter des événements prédéfinis. La recherche de ces événements étant contextuelle, nous proposons une architecture et des outils générique...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005